LLM の KV cache
query$ Q今生成しようとしてゐる token
これまでに現れた全 token
key 行列$ K自分はどんな情報を持ってゐるか
value 行列$ V具體的な中身
$ {\rm Attention}(Q,K,V)={\rm softmax}\left(\frac{QK^\top}{\sqrt d}\right)V
prefill
user の入力 prompt から$ K_0,V_0vector を計算する
各層每に memory に cache する
decoding
新しい token$ x_tから$ K_t,V_tvector のみを計算し、既存の cache に追加する
memory 節約手法